Paper link | Code link | EMNLP 2023
這項研究提出了一種名為 MolCA 的方法。
MolCA 是一種分子語言建模方法,旨在使語言模型(LMs)能夠感知二維圖形,用於分子到文本的生成。
對於語言模型來說,缺乏對二維圖形的感知能力。
這項研究提出了Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter(MolCA)的方法。
該方法使語言模型能夠通過跨模態投影器(cross-modal projector)理解文本和圖形基礎的分子內容。
語言模型(LMs)在各個領域已經取得了顯著的成就。
這項研究旨在利用語言模型進行分子理解。
雖然在一維簡化分子表示方面已有一些方法,但在二維圖形表示中,這對於專業人士理解分子結構至關重要。
MolCA的架構包含三個主要元件:
在MolCA的預訓練階段 1:
圖形編碼器和跨模態投影器(即 Q-Former)通過三個跨模態任務進行聯合優化。
具有相同顏色的模塊共享權重。
在MolCA的預訓練階段 2,通過分子標註進行進一步訓練。
在MolCA的階段 3 (微調階段) 則專注於分子到文字的生成。
以下是PubChem324k和CheBI-20數據集上的分子標註表格